home *** CD-ROM | disk | FTP | other *** search
/ CD School House 10 / CD School House - Education and Games (10.0) - Wayzata Technology (1995).iso / mac / DOS / MISC / MVSP13 / MVSP.DOC < prev    next >
Text File  |  1994-03-03  |  53KB  |  1,142 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7.  
  8.  
  9.  
  10.  
  11.  
  12.  
  13.  
  14.  
  15.  
  16.  
  17.              _______________________________________________________
  18.  
  19.               MMMMMMMMMMMM    VV       VV    SSSSSSSS      PPPPPPPP
  20.               MM   MM   MM     VV     VV     SS            PP    PP
  21.               MM   MM   MM      VV   VV      SSSSSSSS      PPPPPPPP
  22.               MM   MM   MM       VV VV             SS      PP
  23.               MM   MM   MM  *     VVV  *     SSSSSSSS *    PP     *
  24.              _______________________________________________________
  25.  
  26.  
  27.  
  28.                       A MultiVariate Statistics Package for
  29.                             the IBM PC and Compatibles
  30.  
  31.                        (C) Copyright Warren L. Kovach, 1986
  32.  
  33.                               Department of Biology
  34.                                 Indiana University
  35.                               Bloomington, IN  47405
  36.  
  37.                                Ver. 1.3, Feb., 1986
  38.  
  39.  
  40.  
  41.                This program is being distributed as user-supported
  42.                software.  If you find this program to be of value,
  43.           a voluntary contribution ($25 suggested) would be appreciated.
  44.  
  45.  
  46.  
  47.  
  48.  
  49.  
  50.  
  51.  
  52.  
  53.  
  54.  
  55.  
  56.  
  57.  
  58.  
  59.  
  60.  
  61.         MVSP Ver. 1.3 -- User's Manual                            Page 2
  62.  
  63.  
  64.  
  65.                                      CONTENTS
  66.                                      --------
  67.  
  68.         Introduction....................................................3
  69.         Acknowledgements................................................3
  70.         Disclaimer......................................................4
  71.         General Use of Program..........................................4
  72.           Main Menu Options.............................................5
  73.             A-E: Statistical Procedures.................................5
  74.             F: Change Drive or Sub-directory............................5
  75.             G: Change Program Defaults..................................5
  76.             H: HELP!....................................................7
  77.             Q: Quit MVSP................................................7
  78.           Data Files....................................................7
  79.             Data File Header:...........................................7
  80.             Data Labels:................................................8
  81.             Data File Titles:...........................................8
  82.             Data Matrix:................................................9
  83.           Running Statistical Procedures...............................10
  84.             Principle Components Analysis:.............................11
  85.             Reciprocal Averaging:......................................12
  86.             Dissimilarity and Similarities:............................13
  87.             Cluster Analysis:..........................................14
  88.             Diversity Indices:.........................................15
  89.         Future Plans...................................................15
  90.         8087 Support...................................................16
  91.         The User Supported Concept.....................................16
  92.         Appendix: Test Data Files......................................18
  93.         References.....................................................19
  94.  
  95.  
  96.  
  97.  
  98.  
  99.  
  100.  
  101.  
  102.  
  103.  
  104.  
  105.  
  106.  
  107.  
  108.  
  109.  
  110.  
  111.  
  112.  
  113.  
  114.  
  115.  
  116.  
  117.  
  118.  
  119.  
  120.  
  121.         MVSP Ver. 1.3 -- User's Manual                            Page 3
  122.  
  123.  
  124.                                    INTRODUCTION
  125.  
  126.             MVSP is a package of common multivariate statistical
  127.         procedures widely used in many areas of biology and geology, as
  128.         well as other fields.  These procedures include principle
  129.         components analysis, reciprocal averaging, distance or
  130.         dissimilarity measures, average-linkage cluster analysis, and
  131.         diversity indices.  These procedures are geared towards quick,
  132.         simple analyses of small to medium sized data sets.  Any heavy
  133.         number crunching would be best suited for mainframe computers or
  134.         some of the more sophisticated microcomputer statistical packages
  135.         which are available.  However, the price and simplicity of use of
  136.         MVSP is hard to beat!
  137.  
  138.             I've tried to make this program as easy to use as possible.
  139.         One possible drawback to ease of use is that some users may be
  140.         very tempted to take a "black box" approach to using these
  141.         statistics, feeding in numbers and coming up with "The Answer".
  142.         I must strongly warn the users of this program that statistics
  143.         can be DANGEROUS!
  144.  
  145.             All these procedures make assumptions about the data and have
  146.         restrictions on what they can and cannot do. If these assumptions
  147.         and restrictions are violated, the results could be meaningless.
  148.         I urge you to become familiar with the methods and their
  149.         assumptions before you use this program.  This manual contains a
  150.         list of references which I have found very useful in
  151.         understanding these techniques.  In particular, Sneath & Sokal
  152.         (1973), Gauch (1982), and Pielou (1984) are very well written and
  153.         give very clear discussions of these techniques.
  154.  
  155.  
  156.                                  ACKNOWLEDGEMENTS
  157.  
  158.             This program is written in Turbo Pascal, and compiled using
  159.         the version 3.0 compiler.  The procedures for producing the pop-
  160.         up menus and the disk directory listings are modified from Philip
  161.         R.  Burns' public domain procedures PIBMENUS and PIBDIR, both of
  162.         which are incorporated into his PIBTERM program. These procedures
  163.         are widely available on many electronic bulletin board services
  164.         across the country.  Check with your local users groups for more
  165.         information, if you haven't already been bitten by the BBS bug.
  166.              The assembly language procedure for direct memory video
  167.         output is from Steve Hall's contribution to "PC-Magazine's" Power
  168.         User column (Oct. 1, 1985).  The eigenanalysis algorithm used in
  169.         the principle components analysis and reciprocal averaging
  170.         procedures is translated and modified from Orloci's (1978) BASIC
  171.         programs.  The scattergram procedure in the PCA and RA procedures
  172.         is translated and modified from Cooke, Craven, and Clarke's book
  173.         "Basic Statistical Computing", a very nice book with BASIC
  174.         programs for doing numerous types of statistical analyses.  The
  175.         sort procedure used in the Spearman coefficient procedure is
  176.         taken from Jim Savold's ZIPSORT procedure (ver. 1.1)
  177.  
  178.  
  179.  
  180.  
  181.         MVSP Ver. 1.3 -- User's Manual                            Page 4
  182.  
  183.  
  184.                                     DISCLAIMER
  185.  
  186.             The accuracy of this program has of course been extensively
  187.         tested against the results of other programs, but the results are
  188.         not guaranteed.  You may wish to initially also run comparisons
  189.         with the results of other programs, using your own data set, to
  190.         ensure that it is working properly with your type of data.  We
  191.         all know about those demons which manage to get into computer
  192.         programs, causing foul-ups when we least suspect it!
  193.  
  194.             Note when running comparisons that there are often many
  195.         methods of computing the same thing, and results may vary,
  196.         especially in the more complex principle components and
  197.         reciprocal averaging procedures.  In principle components
  198.         analysis, for instance, there are numerous ways of transforming
  199.         the data before eigenanalysis, and the component loadings can be
  200.         scaled either to unity (as they are here) or to the variance of
  201.         that principle component.  These differences may have great
  202.         effects on the results, and should be kept in mind.
  203.  
  204.             If you do run into any problems with this program, whether
  205.         they be in the results or abnormalities in the running of the
  206.         program, please contact me at the address given on the title
  207.         page, or through PC-LINK CENTRAL in Bloomington (812-824-7990),
  208.         and give details of the problem and, if possible, the data set
  209.         which you were running when the bug cropped up.
  210.  
  211.             Please note that no warranty is given for this program.  The
  212.         author (Warren L. Kovach) shall not be legally liable for any
  213.         damages or lost profits arising from use or misuse of this
  214.         program.
  215.  
  216.  
  217.                               GENERAL USE OF PROGRAM
  218.  
  219.             This program is a simple to use, menu-driven program which
  220.         presents you with the possible options at each step.  The program
  221.         is initiated by typing the name of the program, MVSP, at the DOS
  222.         prompt.  Note that there are two files which are necessary for
  223.         this program, MVSP.COM and MVSP.000, and these must both be on
  224.         the default drive when the program is started.  If you have
  225.         changed any of the program defaults, the configuration file named
  226.         MVSP.CNF (which is created when you save your changes) must also
  227.         be on the default drive.
  228.  
  229.             When the program is loaded, you will see an introductory
  230.         screen giving the name and address of the author, then you will
  231.         be presented with a menu of available procedures.  The first
  232.         option on the menu will be highlighted by a rectangular cursor.
  233.         This cursor can be moved up and down the list of options by using
  234.         the up and down arrow keys on the numeric keypad of the keyboard.
  235.         A choice of option is made by hitting the carriage return when
  236.         the correct option is highlighted, or alternatively by typing the
  237.         letter preceding the desired option.
  238.  
  239.  
  240.  
  241.         MVSP Ver. 1.3 -- User's Manual                            Page 5
  242.  
  243.  
  244.  
  245.         MAIN MENU OPTIONS
  246.         =================
  247.  
  248.          OPTIONS A-E:
  249.  
  250.             The first five options are for the basic statistical
  251.         procedures; PRINCIPLE COMPONENTS ANALYSIS, RECIPROCAL AVERAGING,
  252.         SIMILARITIES AND DISSIMILARITIES, CLUSTER ANALYSIS, and DIVERSITY
  253.         INDICES.  These procedures are described later in this document.
  254.  
  255.  
  256.         OPTION F:
  257.  
  258.             This option, CHANGE DRIVE OR SUB-DIRECTORY, allows you to
  259.         temporarily change the drive and sub-directory on which the input
  260.         and output data files will be found by default.  If you enter a
  261.         path name without a drive specification, the default drive is
  262.         assumed.  If you enter just a drive specification (e.g. "A" or
  263.         "A:" or "A:\") the default path will be the root directory of
  264.         that drive.  A "?" lists the sub-directories in the currently
  265.         logged directory.  A carriage return with no other input exits
  266.         this option with no changes.
  267.  
  268.  
  269.         OPTION G:
  270.  
  271.             The CHANGE PROGRAM DEFAULTS option allows you to change the
  272.         initial default colors, path name, and data file extensions.
  273.         These default specifications can be saved to the file MVSP.CNF,
  274.         which will be reloaded each time the program is run, reinstating
  275.         these defaults.  When you choose this option you will be
  276.         presented with a menu asking which type of default should be
  277.         changed.
  278.  
  279.             DEFAULT COLORS allows you to change the color of the regular
  280.         text and background, the menu text and background, and the menu
  281.         frame.  Choosing one of these will cause a menu of available
  282.         colors to appear.  You can experiment with color combinations
  283.         easily, quitting the color menu when you are satisfied.  Note
  284.         that option "F" on the menu resets black and white colors, which
  285.         are the defaults if the MVSP.CNF configuration file is not found.
  286.         This option can be useful in case you get yourself into a color
  287.         combination that is so unreadable that you can't see the options
  288.         available!
  289.  
  290.             DEFAULT DATA FILE PATH changes the default path used for data
  291.         files, just like option F above.  However, this option allows you
  292.         to save this specification for future use, while option F is for
  293.         temporary changes.  If you are using a two floppy disk system, it
  294.         is often most useful to have the program files in drive A:, and
  295.         to have the default data file path set to B:, so that data files
  296.         are on another disk.  If you have a hard disk, you could have the
  297.         program files in a subdirectory named C:\MVSP (which would be the
  298.         default directory when you invoke the program) and the data
  299.         either on a floppy in drive A: or B:, or in a hard disk directory
  300.         named C:\MVSP\DATA.  You would then specify the default data file
  301.         MVSP Ver. 1.3 -- User's Manual                            Page 6
  302.  
  303.  
  304.         path through this option.  You can even set up separate
  305.         directories for different types of data, which is where the
  306.         temporary path change option (option F) would come in handy.  You
  307.         can always override the default path option by either changing it
  308.         through options F or G, or by specifying the drive and path when
  309.         you are asked for the name of the data file when running one of
  310.         the statistical procedures.
  311.  
  312.             DEFAULT DATA FILE EXTENSIONS allows you to change the default
  313.         extensions for your input and output files.  I personally prefer
  314.         *.DAT for input files and *.OUT for output files (these are the
  315.         internal defaults used if MVSP.CNF are not found), but you can
  316.         easily change this and save your changes.
  317.             The cluster analysis program can have different defaults,
  318.         which facilitates the input of similarity or dissimilarity
  319.         coefficients from this program to the cluster procedure.  The
  320.         coefficients program can output a symmetrical matrix to a file in
  321.         the form required by the cluster procedure.  The filename
  322.         extension of this file will default to the extension which you
  323.         specify for cluster analysis input (*.DIS is the internal
  324.         default).  Thus, to perform a cluster analysis of the file
  325.         DATA.DAT, you need only to enter the name DATA in both the
  326.         similarity procedure and the cluster procedure.  The similarity
  327.         matrix will be calculated for DATA.DAT, placed in DATA.DIS, and
  328.         read from DATA.DIS by the cluster procedure.  The output file for
  329.         the cluster program can also have its own default extension
  330.         (*.CLS is the internal default).
  331.             Entering a blank carriage return for the output file
  332.         extensions will direct output to the default printer (Lst)
  333.         instead of a file.  Entering "NUL" will nullify any hard copy
  334.         output, and you will only see the results printed to the screen.
  335.  
  336.             MINIMUM EIGENVALUE allows you to control the number of
  337.         components which are printed out in the PCA and RA procedures by
  338.         changing the value for the minimum eigenvalue.  More on this in
  339.         the section on PCA.
  340.  
  341.             REREAD CONFIGURATION FILE will reread the MVSP.CNF
  342.         configuration file which contains the user default settings.
  343.         This will reinstate the default settings which are normally
  344.         active when the program is initiated.  This can be handy if you
  345.         have made a lot of changes to defaults during a session (without
  346.         saving them!) and you wish to return to your old defaults.
  347.  
  348.             SAVE DEFAULTS TO FILE MVSP.CNF will save any changes in the
  349.         defaults to a configuration file, which will be reloaded every
  350.         time the program is run.  If this file is not found on in the
  351.         same directory as the other MVSP program files, the internal
  352.         defaults will be set.  If any changes are made to the defaults,
  353.         and you attempt to exit the configuration menu without saving
  354.         them, you will be reminded that these new defaults have not been
  355.         saved and given the option to return and save these options, or
  356.         continue back to the main menu.
  357.  
  358.             HELP! will provide abbreviated descriptions of the options of
  359.         the configuration menu.
  360.  
  361.         MVSP Ver. 1.3 -- User's Manual                            Page 7
  362.  
  363.  
  364.             QUIT CONFIGURE will return you to the main menu.
  365.  
  366.          OPTION H:
  367.  
  368.             HELP! will provide descriptions of the main menu options as
  369.         well as information about the expected format of the data files
  370.         and the author's name and address.
  371.  
  372.  
  373.          OPTION Q:
  374.  
  375.             QUIT MVSP will exit the MVSP program and return to the DOS
  376.         prompt.
  377.  
  378.  
  379.  
  380.         DATA FILES
  381.         ==========
  382.  
  383.             The input data files should be ASCII text files which can be
  384.         created with the DOS line editor EDLIN, or many other word
  385.         processors, such as PC-WRITE or XYWRITE.  Some word processors,
  386.         such as WORDSTAR, modify some characters to special formatting
  387.         characters ("high bits").  These modified characters will not be
  388.         able to be read by MVSP.  You can check whether your word
  389.         processor is one of these by listing a word processed file with
  390.         the DOS TYPE command and looking for strange characters.  If your
  391.         word processor uses these extra characters, make sure you create
  392.         your data file in a non-document mode which creates normal ASCII
  393.         files.
  394.  
  395.             You may also maintain your data with spreadsheet or database
  396.         programs, such as LOTUS 123.  Most of these have an option for
  397.         printing data to ASCII files, which can then be modified to the
  398.         appropriate format for MVSP (mainly by adding the file header
  399.         information, discussed below). This can greatly expedite data
  400.         management and manipulation, making it easier to select species
  401.         or sites to be analyzed.
  402.  
  403.  
  404.         DATA FILE HEADER:
  405.  
  406.             The first line of the data file should be a header line,
  407.         which will give the program some information about the data, such
  408.         as the number of rows and columns.  It should look something like
  409.         this:
  410.  
  411.         * 10 15
  412.  
  413.         This header line should begin with an asterisk ("*") in the first
  414.         column of the first line of the file.  This asterisk tells the
  415.         program that a header is present.  If the asterisk is not found,
  416.         the program assumes that the header information is not present,
  417.         and it will prompt the user for the information.  The two numbers
  418.         are the number of rows and columns in the data matrix.  The above
  419.         example has 10 rows and 15 columns.  MAKE SURE that if this
  420.         header information is present, there is an asterisk before it; if
  421.         MVSP Ver. 1.3 -- User's Manual                            Page 8
  422.  
  423.  
  424.         not, the header information will be read as data!
  425.  
  426.             You may also include data labels in the data file.  These
  427.         labels will be printed on your output to help make sense of the
  428.         masses of numbers which will be spewed out.  If labels are
  429.         included, this must be specified in the file header.  For
  430.         example:
  431.  
  432.         *L 10 15
  433.  
  434.         specifies a data file which includes data labels and which has 10
  435.         rows and 15 columns (NOT including the labels themselves).  The
  436.         "L" must come immediately after the "*", with no intervening
  437.         spaces, or it will be read as the number of rows, and an error
  438.         will occur.  The numbers of rows and columns must be separated by
  439.         at least one space from each other.
  440.  
  441.  
  442.         DATA LABELS:
  443.  
  444.             The column and row labels themselves can be up to 8
  445.         characters long and may consist of any printable character,
  446.         except spaces.  The following are all valid labels:
  447.  
  448.         ROW1
  449.         COLUMN_2
  450.         1st-Loc.
  451.         #3-Site
  452.  
  453.         This label is NOT valid:
  454.  
  455.         SITE 1
  456.  
  457.         It will be read as two labels, "SITE" and "1".
  458.  
  459.             The column labels should be in the second row of the data
  460.         file, after the header line, and the labels should be separated
  461.         by at least one space.  The labels may be continued onto
  462.         subsequent lines; the program will continue reading column labels
  463.         until it has read as many as the number of columns you have
  464.         specified in the header line.
  465.  
  466.             Row labels occur on the same line as the data row to which
  467.         they apply, and should precede the first datum in that row, with
  468.         a space separating the label and datum.
  469.  
  470.  
  471.         DATA FILE TITLES:
  472.  
  473.             A title may also be added to your data file on the header
  474.         line, so that you know what this data represents.  Here's an
  475.         example
  476.  
  477.         *L 10 15 Test data file for MVSP
  478.  
  479.         This title, "Test data file for MVSP", will be listed to the
  480.         screen and placed on the output when that file is selected.  It
  481.         MVSP Ver. 1.3 -- User's Manual                            Page 9
  482.  
  483.  
  484.         must be separated from the other elements of the header by at
  485.         least one space, and it cannot be more than 70 characters long.
  486.         The dissimilarities procedure will also place this title in the
  487.         header of the matrix output file, along with the specification of
  488.         which coefficient was used, so that the title is carried over to
  489.         the clustering program.
  490.  
  491.  
  492.         DATA MATRIX:
  493.  
  494.             The data matrix itself should consist of the data points
  495.         separated by at least one space.  The data for one row can be
  496.         continued on the next line.  If the number of rows or columns you
  497.         specify is wrong, the data matrix will be read wrong, often
  498.         without warning.  If you have a 10x10 matrix and specify 9
  499.         columns by mistake, the last datum on the first row will be read
  500.         as the first datum of the second row, and so on.  This, needless
  501.         to say, can raise havoc with your results!  BE CAREFUL!  All
  502.         procedures can print out the raw data so that you can check to
  503.         make sure it was read correctly.
  504.  
  505.         Here is an example data file:
  506.  
  507.         *L 5 10 Test data set for MVSP
  508.         COL1 COL2 COL3 COL4 COL5 COL6 COL7 COL8 COL9 COL10
  509.         ROW1 23  2  4 53  6 45  2  3 67  5
  510.         ROW2 10  2  4 34  1  4  3 10 20  3
  511.         ROW3  2 34  0  1 35 12  1 90 10  9
  512.         ROW4 98 12 10  4 10  9 10  5 20 31
  513.         ROW5  1  7  9 11 75  7  5 21  0 10
  514.  
  515.  
  516.             The input data files for the cluster analysis program use a
  517.         slightly different header format.  Here is an example:
  518.  
  519.         *L 15 DIS Test data set for MVSP
  520.  
  521.         Since the clustering program uses a symmetrical matrix as input,
  522.         it only needs one number for the size of the data matrix.  In
  523.         this case the size of the matrix is 15x15.  The third element of
  524.         the header is a three letter phrase specifying whether the matrix
  525.         is a similarity (SIM) or dissimilarity (DIS) matrix.  This code
  526.         MUST be separated from the number of objects by only one space,
  527.         or it will not be read correctly.  The dissimilarity and
  528.         similarity procedure of this program automatically sets up its
  529.         output files in this manner for input into the clustering
  530.         procedure.
  531.  
  532.             Here is an example of a clustering input file, generated from
  533.         an analysis of the above matrix, using the Spearman Rank Order
  534.         Correlation Coefficient:
  535.  
  536.  
  537.  
  538.  
  539.  
  540.  
  541.         MVSP Ver. 1.3 -- User's Manual                           Page 10
  542.  
  543.  
  544.         *L 10 SIM Test data set for MVSP - SPEARMAN
  545.         COL1 COL2 COL3 COL4 COL5 COL6 COL7 COL8 COL9 COL10
  546.             1.00
  547.            -0.15     1.00
  548.             0.36    -0.05     1.00
  549.             0.20    -0.97     0.05     1.00
  550.            -0.60     0.67     0.15    -0.60     1.00
  551.             0.30     0.21    -0.31    -0.00     0.10     1.00
  552.             0.30    -0.05     0.97     0.00     0.10    -0.50     1.00
  553.            -0.80     0.62    -0.41    -0.70     0.60    -0.30    -0.30
  554.             1.00
  555.             0.82    -0.55    -0.03     0.62    -0.82     0.41    -0.10
  556.            -0.87     1.00
  557.             0.10     0.67     0.67    -0.60     0.70     0.10     0.60
  558.             0.10    -0.41     1.00
  559.  
  560.         Note that this file is a lower half matrix, with diagonals (the
  561.         1.00's) included.  Other forms of matrices may also be specified
  562.         for input to the clustering program, as discussed below, but this
  563.         is the default output form of the similarities and
  564.         dissimilarities procedure.
  565.  
  566.  
  567.  
  568.         RUNNING STATISTICAL PROCEDURES
  569.         ==============================
  570.  
  571.              When one of the statistical procedure options (A-F) are
  572.         chosen, you will first be asked for the name of the input data
  573.         file.  You may obtain a directory of the default data disk and
  574.         path by typing a "?".  You may then specify a certain file mask
  575.         (such as *.DAT for all files with a .DAT extension) or simply hit
  576.         the carriage return for all files.  You may then enter the name
  577.         of the data file.  The program will automatically add your
  578.         specified default extension if no extension is specified.  So, if
  579.         your datafile is named "STUDY1.DAT" and your default extension is
  580.         *.DAT, you need only type "STUDY1".  If you specify another
  581.         extension, or have a filename with no extension, the program will
  582.         recognize those as long as the full name is specified.  A blank
  583.         carriage return here will return you to the main menu.
  584.  
  585.             If you have elected (through the configuration menu) to have
  586.         output sent to the printer, then you will be prompted to make
  587.         sure that your printer is ready, and you will then go into the
  588.         statistical procedure you have selected.
  589.  
  590.             If you have instead specified a default output file
  591.         extension, you will next be prompted for the name of the output
  592.         file.  If you enter a blank carriage return, this output file
  593.         will default to the input file name plus the default output file
  594.         extension you have specified.  The output file for an analysis of
  595.         STUDY1.DAT will default to STUDY1.OUT if your default output
  596.         extension is  *.OUT.  If you have chosen to run the
  597.         dissimilarities procedure, you will also be asked if you wish to
  598.         have the results input into the clustering procedure.  If so,
  599.         another filename must be specified to contain just the distance
  600.         matrix, with none of the ancillary information.  This filename
  601.         MVSP Ver. 1.3 -- User's Manual                           Page 11
  602.  
  603.  
  604.         defaults to the default extension for the cluster analysis input
  605.         files.
  606.  
  607.             After the book-keeping business is taken care of, you will
  608.         then enter the actual procedure which you have chosen.  These
  609.         will be discussed separately.
  610.  
  611.  
  612.         PRINCIPLE COMPONENTS ANALYSIS:
  613.  
  614.             This procedure performs a simple R-mode principle components
  615.         analysis.  The component loadings are scaled to unity, so that
  616.         the sum of squares of an eigenvector equals 1, and the  component
  617.         scores are scaled so that the sum of squares equals the
  618.         eigenvalue.  Q-mode PCA will have the opposite scaling.  Note
  619.         that many packages, such as SPSS and SYSTAT, perform Q-mode PCA,
  620.         and thus their eigenvectors will be scaled to the eigenvalue,
  621.         rather than unity.  Note also that the data matrices for MVSP
  622.         must be transposed for use with packages such as SPSS or SYSTAT
  623.         to obtain the same eigenvalues.
  624.  
  625.             For details on the computation and assumptions of the PCA
  626.         technique, see Orloci (1978), Gauch (1982), and Pielou (1984).
  627.         Orloci gives a detailed mathematical discussion of the particular
  628.         algorithm used here, while Gauch and Pielou give very clear and
  629.         understandable discussions of the basis of the technique and its
  630.         use and assumptions.
  631.  
  632.             The size of data matrix which can be analyzed is limited to
  633.         55x55 (45x45 for the 8087 version).  In the R-mode analysis,
  634.         similarity coefficients are calculated for the descriptors, which
  635.         are the rows of the matrix (species in an ecological study,
  636.         characters in a numerical taxonomic study) and component scores
  637.         are calculated for the objects, which are the columns of the
  638.         matrix (samples or operational taxonomic units (OTU's)).
  639.  
  640.             You will first be asked if you wish to have the raw data and
  641.         the similarity matrix printed out.  In analyses of large data
  642.         sets, the printing of the data and similarity matrix can add a
  643.         little bit of time to the analysis, as well as a hefty pile of
  644.         paper.  I find it useful to see this output, however,
  645.         particularly to check to see if the data was read correctly.
  646.  
  647.             Next, you will be asked if you want the data to be log
  648.         transformed.  PCA assumes a normal distribution of the data, but
  649.         this assumption is often not met.  Log transforming the data can
  650.         reduce the skewness of the data, resulting in a more
  651.         interpretable analysis (Spicer & Hill, 1979).  In my research
  652.         with fossil plant data, I've found this to be invaluable, as I
  653.         always have some samples with extremely high abundances of
  654.         certain taxa, and these taxa tend to dominate the analysis due to
  655.         their large numbers.  Log transforming the data evens this out.
  656.         You are given the option of what base of logarithm to use.
  657.  
  658.             When the procedure is run, you will have the option of using
  659.         either a covariance or correlation matrix, and of using either a
  660.         centered or uncentered data matrix.  Generally a centered
  661.         MVSP Ver. 1.3 -- User's Manual                           Page 12
  662.  
  663.  
  664.         covariance matrix is used, but if different units of measurement
  665.         are used in the data matrix, these will need to be standardized,
  666.         and thus a correlation matrix should be used.  Standardization
  667.         may also be desired to reduce the effects of dominant species, so
  668.         that rarer species play a greater role in the resulting
  669.         configuration.  An uncentered data matrix is called for when
  670.         there is appreciable between-axes heterogeneity.  This means that
  671.         different clusters of points are associated with different axes,
  672.         and have little projection on other axes.  This often occurs when
  673.         different groups of samples have completely different sets of
  674.         common species, with little overlap.  See Pielou (1984) for more
  675.         on this.
  676.  
  677.             Status messages will be listed to the screen during the
  678.         analysis to let you know how things are proceeding.  The final
  679.         results will also be listed out while they are being saved to the
  680.         output file or sent to the printer.  The eigenvalues and their
  681.         percentage of the total variation will be printed along with the
  682.         component coefficients (or eigenvectors), then the component
  683.         scores for each principle component will be printed.
  684.  
  685.             You may choose the minimum eigenvalue for which principle
  686.         components are printed out.  The internal default is to print
  687.         components only if the eigenvalue is greater than the average
  688.         eigenvalue.  This is often considered a good rule of thumb for
  689.         determining whether a component is interpretable (Legendre &
  690.         Legendre, 1983).  You may change this default through the program
  691.         defaults option (G) on the main menu.  A value of 0 will cause
  692.         all components to be printed out, and any other value, such as 1,
  693.         may also be entered as a minimum eigenvalue.  This minimum value
  694.         may be saved in the MVSP.CNF configuration file along with the
  695.         colors and default datafile paths and extensions.
  696.  
  697.             You may also have the component loadings and component scores
  698.         plotted on a scatter diagram.  You will be asked how many axes
  699.         you wish to have plotted.  If you choose three, for instance, the
  700.         first three axes will be plotted against each other in every
  701.         combination of two dimensional plots (3 plots in this case, 6 for
  702.         four axes, etc.).  Entering a zero will bypass the plotting
  703.         procedure.
  704.  
  705.             After the component plots, the raw data will be printed out
  706.         sorted by the first component scores and factors.  This can be
  707.         useful for allowing you to see patterns and trends in the raw
  708.         data alone.  If the first component accounts for a large
  709.         proportion of the variance, and if there is an interpretable
  710.         gradient along the first axis, then this pattern can be striking.
  711.  
  712.  
  713.         RECIPROCAL AVERAGING:
  714.  
  715.             The reciprocal averaging procedure performs an eigenanalysis
  716.         form of reciprocal averaging.  Again, see Orloci (1978), Gauch
  717.         (1982) and Pielou (1984) for details on this procedure.  The
  718.         setup and usage of this procedure is similar to the PCA
  719.         procedure, with some differences.  This procedure uses more
  720.         computer memory, with the result that the largest matrix which
  721.         MVSP Ver. 1.3 -- User's Manual                           Page 13
  722.  
  723.  
  724.         can be analyzed is 45x45 (40x40 for the 8087 version).  There are
  725.         also a few more options available.
  726.  
  727.             The analysis can be run with either a weighting of the rare
  728.         species or the common species.  See Orloci (pp. 152-168) for
  729.         details of these methods of weighting.  Also, the scores can be
  730.         adjusted to to percentages, to approximate the results of the
  731.         original RA algorithm as put forth by Hill (1973).  The data file
  732.         should have species as the rows and samples as the columns, as in
  733.         the PCA procedure.
  734.  
  735.  
  736.         DISSIMILARITY AND SIMILARITIES:
  737.  
  738.             This program calculates a variety of dissimilarity and
  739.         similarity measures.  There are presently six measures available.
  740.         These procedures, and their formulas are:
  741.  
  742.         Euclidean distance:
  743.  
  744.           EDjk = SQRT [ SUMi SQR (Xij - Xik) ]
  745.  
  746.         Cosine theta (or normalized Euclidean) distance:
  747.  
  748.           CDjk = SQRT [ SUMi SQR (Xij / Yj - Xik / Yk) ]
  749.             where Yx = SQRT [ SUMx SQR (Xix) ]
  750.  
  751.         Manhattan metric distance:
  752.  
  753.           MMDjk = SUMi [ ABS (Xij - Xik) ]
  754.  
  755.         Canaberra metric distance:
  756.  
  757.           CMDjk = SUMi [ ( ABS (Xij - Xik) ) / (Xij + Xik) ]
  758.  
  759.         Spearman rank order correlation coefficient:
  760.  
  761.           SCCij = 1 - [ ( 6 * SUMk SQR (Rik - Rjk) )
  762.                       / (CUBE (N) - N) ]
  763.             where R = rank of variable
  764.  
  765.         Pearson product moment correlation coefficient:
  766.  
  767.           PCCij = [ SUMk (Xik - MEAN (Xi) ) * (Xjk - MEAN (Xj) ]
  768.                   / [ SQRT ( SUMk SQR (Xik - MEAN (Xk) ) )
  769.                     * SQRT ( SUMk SQR (Xjk - MEAN (Xk) ) ) ]
  770.  
  771.         (X = data value; ABS = absolute value; SQR = square;
  772.          SQRT = square root; MEAN = mean; CUBE = cubed;
  773.          SUM = sumation )
  774.  
  775.         See Sneath & Sokal (1973), Pielou (1984), and Prentice (1980) for
  776.         discussions and derivations of these measures.  The maximum size
  777.         of data matrix allowed is 95x95 (85x85 for the 8087 version).
  778.  
  779.             The distances are calculated between the columns of the data
  780.         matrix.  An option to transpose the data matrix before the
  781.         MVSP Ver. 1.3 -- User's Manual                           Page 14
  782.  
  783.  
  784.         analysis is included, to allow analysis of the rows without
  785.         requiring reentry of the data.
  786.  
  787.             This procedure is set up to allow easy input of the distance
  788.         measures into the clustering analysis procedure.  If you choose
  789.         to input the distance matrix into the clustering program, a copy
  790.         of the distance matrix along with the appropriate header
  791.         information will be put into a separate file from the full
  792.         output.  This matrix file can then be used as input to the
  793.         clustering program.
  794.  
  795.  
  796.         CLUSTER ANALYSIS:
  797.  
  798.             This procedure performs average linkage cluster analysis on
  799.         an input matrix of some sort of distance or similarity measure.
  800.         Four forms of average linkage clustering are presently available,
  801.         unweighted pair group, unweighted centroid, weighted pair group,
  802.         and weighted centroid (or median).  For clear and concise
  803.         explanations of the theory and practice behind cluster analysis,
  804.         see Sneath and Sokal (1973) and Pielou (1984).  The largest data
  805.         matrix this program can handle is 95x95 (85x85 for the 8087
  806.         version).
  807.  
  808.             A number of different input formats are available, including
  809.         various forms of half matrices and full matrices (a lower half
  810.         matrix with a diagonal, the output form of the dissimilarity
  811.         procedure, is the default).  You must also specify whether the
  812.         input measure is a similarity or dissimilarity measure (if it
  813.         isn't specified in your data file header).
  814.  
  815.             The output of the procedure consists of a report of the
  816.         status of the clustering procedure as each new object is added to
  817.         the cluster.  The average similarity or dissimilarity of the two
  818.         groups which have just been joined is printed out, along with a
  819.         listing of the two groups and the number of objects in the newly
  820.         fused group.  If a single object is added to another cluster, the
  821.         label for that object (or a numerical label corresponding to its
  822.         position in the data matrix) is printed out.  If a whole group is
  823.         added, the node at which that group was last added to is printed
  824.         out.  For instance, a report such as:
  825.  
  826.                         NODE        GROUP 1       GROUP 2
  827.                           1           COL1          COL2
  828.                           2           COL4          COL5
  829.                           3         NODE 1          COL3
  830.                           4         NODE 3        NODE 2
  831.  
  832.  
  833.         would correspond to a dendrogram of the form:
  834.  
  835.  
  836.  
  837.  
  838.  
  839.  
  840.  
  841.         MVSP Ver. 1.3 -- User's Manual                           Page 15
  842.  
  843.  
  844.                            COL1  COL2  COL3  COL4  COL5
  845.                             |     |     |     |     |
  846.                             -------     |     -------
  847.                                |        |        |
  848.                                ----------        |
  849.                                    |             |
  850.                                    ---------------
  851.                                           |
  852.  
  853.         The actual lengths of the branches of this dendrogram would
  854.         depend on the average similarity of each group as they are fused.
  855.         The dendrogram can be reconstructed by hand, or the dendrogram
  856.         can be plotted using computer graphics programs.  Joseph
  857.         Felsenstein's cladistic package PHYLIP contains a program written
  858.         by Christopher Meacham for drawing cladograms and dendrograms.
  859.         See Felsenstein (1985) for details on the availability of this
  860.         free package.
  861.  
  862.  
  863.         DIVERSITY INDICES:
  864.  
  865.             This procedure computes three of the most commonly used
  866.         diversity indices used in ecology, Simpson's, Shannon's, and
  867.         Brillouin's.  See Pielou (1969) for a discussion of the use and
  868.         derivation of these indices.
  869.  
  870.             The input data file should be set up with species as rows and
  871.         samples as columns.  The diversity, then, is calculated for each
  872.         column.  The largest data matrix which can be processed is 95x95
  873.         (85x85 for the 8087 version).  Be forewarned that the Brillouin
  874.         index calculates factorials of the species abundances, and if any
  875.         of your abundances are high, this could take a VERY LONG TIME!
  876.         Data matrices with numerous species abundances on the order of
  877.         hundreds or thousands could make for a rather long coffee break!
  878.  
  879.             The output consists not only of the diversity index, but also
  880.         the number of species and the evenness, which is defined as the
  881.         diversity divided by the log of the number of species (Pielou,
  882.         1969)).
  883.  
  884.  
  885.  
  886.                                    FUTURE PLANS
  887.  
  888.             My plans for future versions of this program include adding
  889.         character graphics procedures for the clustering procedure and
  890.         adding more coefficients to the dissimilarities and similarities
  891.         procedure.  I am also considering adding Bray & Curtis polar
  892.         ordination, with some of the modifications which have been
  893.         suggested by Beals (see his 1984 paper for summaries), as well as
  894.         detrended correspondence analysis (see Hill & Gauch, 1980).  Any
  895.         comments on favorite statistics out there?  Let me know what you
  896.         would like to see in this program.
  897.  
  898.             I also hope to figure out a way to increase the size of the
  899.         data matrices that this program accept.  They are now limited by
  900.         the 64K limit that Turbo Pascal imposes for the size of the data
  901.         MVSP Ver. 1.3 -- User's Manual                           Page 16
  902.  
  903.  
  904.         and stack segments.  My attempts to use memory outside of that
  905.         64K space for the data matrices have met with some very strange
  906.         results (including one time when my screen began flashing a
  907.         psychedelic pattern of ASCII characters while the computer
  908.         proceeded to trash out my data disk; see what I mean by demons?).
  909.  
  910.             If you have any other comments about the procedures in this
  911.         program, or about procedures NOT in this program, which you feel
  912.         would be useful to include, these should be sent to me at the
  913.         address on the title page of this manual. THANK YOU!
  914.  
  915.  
  916.                                    8087 SUPPORT
  917.  
  918.             If you aren't satisfied with the speed of this program, a
  919.         faster version which uses the 8087 math coprocessor is available.
  920.         This coprocessor (which is an optional chip that can be plugged
  921.         into your computer and costs anywhere from $100-$200) greatly
  922.         speeds up the processing of real number, floating point
  923.         arithmetic.  Often this increase in speed can amount to 10 times!
  924.  
  925.             Turbo Pascal, the compiler used for this package, offers a
  926.         special compiler which creates programs which take advantage of
  927.         this processor.  The programs compiled with this special compiler
  928.         will only work on machines which have the 8087 installed.  They
  929.         also will have lower limits on the data matrix size, since the
  930.         8087 version of Turbo Pascal uses more memory to store each
  931.         number (and hence has a greater accuracy in its computations).
  932.  
  933.             A version of this program which has been compiled for the
  934.         8087 is available to registered users (those who have made a
  935.         voluntary monetary contribution; see below). If you are working
  936.         with smaller matrices (maximum matrix sizes are specified in the
  937.         procedure descriptions above), then this could speed things up a
  938.         good bit.  For example, a PCA of a 45x45 data matrix took one
  939.         hour with the normal version of the program, but only twenty
  940.         minutes with the 8087 version.
  941.  
  942.  
  943.                             THE USER SUPPORTED CONCEPT
  944.  
  945.             This software package is being distributed under the user
  946.         supported concept.  In case you haven't run across this software
  947.         phenomenon, the following is a brief discussion of it's tenets.
  948.  
  949.             User supported software is an experiment in "grass-roots"
  950.         software distribution and development.  Andrew Fluegelman, one of
  951.         the pioneers of this phenomenon, expressed it this way:
  952.  
  953.             1) The value and utility of software is best assessed by the
  954.                user on his or her own system.
  955.  
  956.             2) The creation of new and useful software should be
  957.                supported by the computing community.
  958.  
  959.             3) Copying and sharing of software that you have found useful
  960.                should be encouraged, rather than restricted.
  961.         MVSP Ver. 1.3 -- User's Manual                           Page 17
  962.  
  963.  
  964.  
  965.             User supported programs, such as this, are freely distributed
  966.         to the computing community, through the network of electronic
  967.         bulletin board services, local computer user groups, word of
  968.         mouth, and networks of friends with similar interests.  The user
  969.         support comes in two forms:
  970.  
  971.             1) The user is encouraged to evaluate the program, suggest to
  972.                the author any changes in the program which would be
  973.                useful, and recommend the program to others if it is worth
  974.                recommending.
  975.  
  976.             2) The user is encouraged to support further programming
  977.                efforts (including enhancements of this program) through a
  978.                voluntary monetary contribution to the program author.
  979.  
  980.             User supported means that you don't have to pay outrageous
  981.         prices for a commercial package without even getting a chance to
  982.         test drive it first to see if it really meets your needs.  User
  983.         supported means that if YOU, the user, decides that this program
  984.         is worth supporting, then you support it voluntarily, for a
  985.         reasonable cost, and without the hassles of copy-protection and
  986.         the high cost of advertising.
  987.  
  988.             You are encouraged to copy and distribute this program.  If
  989.         you find this program to be useful, a voluntary contribution to
  990.         the author ($25 suggested) would be appreciated.  This program is
  991.         copyrighted, and no price may be charged for this program by any
  992.         person other than the author (Warren L. Kovach).  A nominal fee
  993.         may be charged for distribution costs, such as for the media and
  994.         postage and handling, as long as this fee does not exceed $5.
  995.  
  996.             All registered users (users who have made the voluntary
  997.         contribution of $25 or more) will be placed on my mailing list,
  998.         and they will be notified of new versions and new features of
  999.         this program, and will be entitled to upgrades to newer versions
  1000.         for only the cost of postage and the disk (about $5).  They will
  1001.         also be entitled to versions of the program compiled for the 8087
  1002.         math coprocessor, also for only the postage and media cost.
  1003.  
  1004.         Thank you for supporting MVSP!
  1005.  
  1006.  
  1007.  
  1008.  
  1009.  
  1010.  
  1011.  
  1012.  
  1013.  
  1014.  
  1015.  
  1016.  
  1017.  
  1018.  
  1019.  
  1020.  
  1021.         MVSP Ver. 1.3 -- User's Manual                           Page 18
  1022.  
  1023.  
  1024.                              APPENDIX: Test Data Files
  1025.  
  1026.             The following are listings of some example data files which
  1027.         are distributed with MVSP.  These data files are taken from the
  1028.         published literature, and the user may compare the MVSP results
  1029.         with those of the original analyses.
  1030.  
  1031.         File JOLIMOSI.DAT:
  1032.  
  1033.             These data are taken from Jolicoeur & Mosimann (1960), a
  1034.         pioneering study using PCA in morphometrics.  The data are
  1035.         measurements (in millimeters) of the length, width, and height of
  1036.         the carapices of 24 male painted turtles (Chrysemys picta
  1037.         marginata).  They interpret the first PC as corresponding to size
  1038.         increase (growth) while the second & third PC's are interpreted
  1039.         as shape variation.
  1040.  
  1041.         *L 3 24 Turtle carapice data from Jolicoeur & Mosimann, 1960, males.
  1042.         T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13 T14 T15 T16 T17 T18
  1043.         T19 T20 T21 T22 T23 T24
  1044.         LENGTH 93 94 96 101 102 103 104 106 107 112 113 114 116 117 117 119
  1045.               120 120 121 125 127 128 131 135
  1046.         WIDTH  74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96
  1047.                95 95 106
  1048.         HEIGHT 37 35 35 39 38 37 39 39 38 40 40 40 43 41 41 41 40 44 42 45 45
  1049.                45 46 47
  1050.  
  1051.         File GAUCH.DAT:
  1052.  
  1053.             These data are taken from Gauch (1982).  These are composite
  1054.         samples of upland forest communities from southern Wisconsin,
  1055.         taken from a pioneer (sample 1) to climax (sample 10) gradient.
  1056.         He uses these data to demonstrate many different ordination
  1057.         techniques.  He doesn't analyze these data with RA, but he does
  1058.         use detrended correspondence analysis on these data, with similar
  1059.         results to MVSP's RA program (particularly on the first axis).
  1060.  
  1061.         *L 14 10 Wisconsin forest communities data from Gauch, 1982, Table 4.4
  1062.         S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
  1063.         QUER.MAC 9 8 3 5 6 0 5 0 0 0
  1064.         QUER.VEL 8 9 8 7 0 0 0 0 0 0
  1065.         CARY.OVA 6 6 2 7 0 2 0 0 0 0
  1066.         PRUN.SER 3 5 6 6 6 4 5 0 4 1
  1067.         QUER.ALB 5 4 9 9 7 7 4 6 0 2
  1068.         JUGL.NIG 2 0 0 0 3 5 6 4 3 0
  1069.         QUER.RUB 3 4 0 6 9 8 7 6 4 3
  1070.         JUGL.CIN 0 0 5 0 2 0 0 2 0 2
  1071.         ULMU.AME 2 2 4 5 6 0 5 0 2 5
  1072.         TILI.AME 0 0 0 0 2 7 6 6 7 6
  1073.         ULMU.RUB 4 0 2 2 5 7 8 8 8 7
  1074.         CARY.COR 0 0 0 0 0 5 6 4 0 3
  1075.         OSTR.VIR 0 0 0 0 0 0 7 4 6 5
  1076.         ACER.SAC 0 0 0 0 0 5 4 8 8 9
  1077.  
  1078.  
  1079.  
  1080.  
  1081.         MVSP Ver. 1.3 -- User's Manual                           Page 19
  1082.  
  1083.  
  1084.                                     REFERENCES
  1085.  
  1086.         Beals, E.W., 1984.  Bray-Curtis Ordination: An Effective Strategy
  1087.             for Analysis of Multivariate Ecological Data.  Adv. in Ecol.
  1088.             Research, 14:1-55.
  1089.  
  1090.         Cooke, D., Craven, A.H., & Clarke, G.M., 1982.  Basic Statistical
  1091.             Computing.  Edward Arnold (Publishers) Ltd., London.
  1092.  
  1093.         Felsenstein, J., 1985.  Confidence Limits on Phylogenies: An
  1094.             Approach Using the Bootstrap.  Evolution 39:783-791.
  1095.  
  1096.         Gauch, H.G. Jr., 1982.  Multivariate Analysis in Community
  1097.             Ecology.  Cambridge University Press, New York.
  1098.  
  1099.         Greig-Smith, P., 1983.  Quantitative Plant Ecology.  University
  1100.             of California Press, Berkely.
  1101.  
  1102.         Hill, M.O., 1973.  Reciprocal Averaging: An Eigenvector Method of
  1103.             Ordination.  Journal of Ecology, 61:237-249.
  1104.  
  1105.         Hill, M.O., & Gauch, H.G. Jr., 1980.  Detrended Correspondence
  1106.             Analysis: An Improved Ordination Technique.  Vegetatio 42:47-
  1107.             58.
  1108.  
  1109.         Jolicoeur, P., & Mosimann, J.E., 1960.  Size and Shape Variation
  1110.             in the Painted Turtle.  A Principle Component Analysis.
  1111.             Growth, 24:339-354.
  1112.  
  1113.         Legendre, L., & Legendre, P., 1983. Numerical Ecology.  Elsevier
  1114.             Scientific Publishing Company, New York.
  1115.  
  1116.         Orloci, L., 1978.  Multivariate Analysis in Vegetation Research,
  1117.             2nd edition.  W. Junk, Boston.
  1118.  
  1119.         Pielou, E.C., 1969.  An Introduction to Mathematical Ecology.
  1120.             Wiley-Interscience, New York.
  1121.  
  1122.         Pielou, E.C., 1984.  The Interpretation of Ecological Data.
  1123.             Wiley-Interscience, New York.
  1124.  
  1125.         Prentice, I.C., 1980.  Multidimensional Scaling as a Research
  1126.             Tool in Quaternary Palynology: A Review of Theory and
  1127.             Methods.  Review of Paleobotany & Palynology, 31:71-104.
  1128.  
  1129.         Sneath, D.H., & Sokal, R.R., 1973.  Numerical Taxonomy.  W.H.
  1130.             Freeman & Co., San Francisco.
  1131.  
  1132.         Spicer, R.A., & Hill, C.R., 1979.  Principle Components and
  1133.             Correspondence Analysis of Quantitative Data from a Jurassic
  1134.             Plant Bed.  Review of Paleobotany & Palynology, 28:273-299.
  1135.  
  1136.  
  1137.  
  1138.  
  1139.  
  1140.  
  1141.  
  1142.